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Abstract of FR2563349 

The multiplier, useable especially for matrixing 
and dematrixing of digital video signals, makes 
it possible to carry out a numerical operation of 
the type A*X + B*Y + C*Z. It comprises a first 
assembly MAT1 consisting of a systolic 
calculating matrix with n x n elementary cells 
(n being the number of coding bits) each 
carrying out an elementary matrix operation 
A*X + B*Y + C'Z, feeding a second assembly 
intended for propagating carries and results of 
elementary calculations for obtaining high- 
significance bits, the second assembly MAT2 
in turn feeding a third assembly consisting of a 
triangular matrix with n register lines for 
presentation of high-significant bits on 
corresponding outputs. 
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(57) Le muttipTieur. utfltsable notamment pour le matricage et 
le dematricage de signaux video numeriques, permet de r6aJi- 
ser une operation numerique du type A*X + B*Y + C*Z. II 
comporte un premier ensemble MAT1 constitue d'une matrice 
de calcul systolique a n x n cellules eiementaires in etant le 
nombre d'ebs de codage) realisant chacune une operation 
matricielte elementatre A # X + B*Y + C # Z, alimentant un 
second ensemble destine a la propagation des retenues et des 
resuttats des calculs eiementaires d'obtention des ebs de 
poids fort le second ensemble MAT2 alimentant a son tour un 
troisieme ensemble constitue par une matrice triangulaire a n 
lignes de registres de presentation des ebs de poids fort sur 
des sorties correspondantes. 
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Multiplieur matriciel systolique de traitement de 
donndes numgriques 

[.'invention a pour objet un multiplieur matri- 
ciel systolique, permettant de rdeliser de fa9on simple, 
5 repetitive et rapide, une operation numgrique de type : 

A*X + B*Y + C*Z (1) 

od A, B et C sont des variables d'entrcle et X, Y et Z 
sont des coefficients qui peuvent §tre fig6s ou au con- 
tra ire programmables • 

10 Un tel multiplieur est utilisable pour traiter 

des donnges et des variables numgriques coddes sur un 
nombre d'eU^ments binaires (ebs ou bits) quelconque. II 
trouve une application part iculierement importante dans 
le traitement de signaux num£rique3 video, notamment 

J5 pour le matricage et le dSmatricage de tels signaux ; 
parmi les autres applications possibles, on peut citer 
le filtrage damages en temps ri§el et I'extraction de 
contours. II faut a ce sujet noter que I'op^ration 
r£alis£e peut avoir un nombre de termes supe*rieur a 

20 trois et notamment §tre de la forme t 

A*X + B*Y + C*Z + D*W. 

On sait qu'un systeme systolique est ainsi 66- 
nomme* du fait de l f analogie de son f onct ionnement avec 
la distribution du sang sous la commande des battements 

25 du coeur. Un multiplieur systolique permettant de rdali- 
ser l*op£ration num^rique A*X + B*Y + C*Z a 616 demerit 
par Kung dans "Why systolic architectures ?" - IEEE 
TRANSACTIONS ON COMPUTERS, Janvier 1982, numero special 
sur le calcul en parallele. Ce multiplieur utilise trois 

30 multiplieurs dans trois cellules diff6rentes. II est 
done tres complexe. II en est de mSme des cornbinaisons 
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de mul t ipl ieurs numgriques travaillant sur 8 et 16 ebs 
actuellement disponibles : la constitution d'un multi- 
plieur effectuant l'opgration A*X + B*Y + C*Z sur des 
donnees codges sur 8 ebs exige trois mult ipl ieurs et 
5 deux addi tionneurs . 

(.•invention vise a fournir un multiplieur ma- 
triciel systolique permettant de rgaliser une operation 
du type A*X + B*Y + C*Z a une rapidite compatible avec 
les exigences du traitement video numgrique, realisable 

10 de fagon industrielle avec integration sur micropla- 
quette de silicium, a un coOt plus faible que par asso- 
ciation de composants standard et avec une dissipation 
de puissance moindre. 

Pour cela, I'invention propose un multiplieur 

15 qui, loin de se borner a juxtaposer des circuits exis- 
tants, associe suivant une approche originale et de 
fagon repetitive des cellules unitaires simples, aisg- 
ment realisables en technologie N-MOS a longueur de 
canal faible (typiquement 3 \im) permettant d'etteindre 

20 une frequence d'environ 20 MHz, dans lesquelles la mg- 
thode systolique est mise en oeuvre au niveau de l f glg- 
ment binaire. 

Le multiplieur comporte un premier ensemble 
constitug d'une matrice de calcul systolique a n x n 

25 cellules glgmentaires (n etant le nombre d'ebs de 
codage) rgalisant chacune une operation matricielle 
eiementaire A*X + B*Y + C*Z, alimentant un second en- 
semble destine a la propagation des retenues et des 
rgsultats des calculs eiementaires d'obtention des ebs 

30 de poids fort ; ce second ensemble alimente a son tour 
un troisieme ensemble constitue par une matrice trian- 
gulaire a n lignes de registres de presentation des ebs 
de poids fort sur des sorties correspondent es . 

Les. registres, qui constituent I'glgment de base 

35 d'une telle architecture, apportent un avsntage impor- 
tant : ils peuvent 6tre congus pour autoriser un test du 
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multiplieur par chargement en s£rie de tous les regis- 
tres puis dechargement identique apres un cycle de 
l'horloge qui les commanded 

L'invention sera mieux comprise a la lecture de 
5 la description qui suit de modes particuliers d'exgcu- 
tion donnas a t itre d 1 exemples non limit-art if s. La des- 
cription se reTere aux dessins qui 1 1 accompagnent , dans 
lesquels : 

- les Figures 1A et IB dans leur ensemble sont 
10 un schema fonctionnel g£n£ral d'un multiplieur suivant 

1' invention permettant de traiter des variables et des 
coefficients cod£s sur 8 ebs ; 

- la Figure 2 est un schema fonctionnel interne 
d'une cellule de base, d£sign£e par CEL1, du premier eri- 

15 semble du multiplieur; 

- les Figures 3, 4 et 5 sont des schemes fonc- 
tionnels de cellules <§ldmentaires CEL 2, ADD et RG du 
second ensemble du multiplieur ; 

- la Figure 6 est un schema 61ectrique de la 
20 cellule RG de la Figure 5. 

Le multiplieur montre* en Figure 1 peut §tre 
regards* comme constitue* de trois ensembles HAT 1, RET 2 
et RG 3. 

Le premier ensemble MAT 1 recoit en parallele, a 
25 partir d'un bus a 24 fils, les trois variables A, B et C 
sur des entries identifiers par AO, BO, CO,... A7 y B7, 
C7. II recoit 6galement les coefficients constants a 
partir de 24 fils de programmation selon le m§me format 
que les variables. Cet ensemble MAT 1 est constitue* 
30 d'une matrice a 8 lignes et 8 colonnes de cellules 616- 
mentaires CELl(i,j), ou JL et J[ varient de 0 a 7, a la- 
quelle sont ajout£s (sur la gauche de la Figure) huit 
registres 8. 

L 1 ensemble MAT 1 est une partie essentielle du 
35 multiplieur* II constitue une matrice de calcul systo- 
lique dont cheque cellule CELl(i.j) realise une op€r- 
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tion matricielle elStnentaire dont on pourre trouver une 
description complete dans la publication de CARL AC 1 H et 
autres "Description pre" liminaire des circuits intggrSs 
de matricage et de d6matric.age de signaux video- 
5 num<§riques", document du C.C.E.T.T. NT/CNR/VRE/29/83 de 
3uin 1983. 

La cellule 6 lament a i re realise les t rois multi- 
plications en parellele. On supposera qu'elle traite des 
nombres binaires codds en complement a 2. Elle peut 

10 alors avoir la constitution montr^e en Figure 2. La cel- 
lule comporte des registres dynamiques glgmentaires 10 
months en se*rie et qui peuvent fitre du type demerit plus 
loin en faisant reference aux Figures 5 et 6. Les sor- 
ties des registres attaquent un jeu de trois addition- 

15 neurs a retenue 12, 14 et 1(6, d£sign£s par ADD3, et un 
additionneur simple 18, diSsigne* par ADD2, par 1'inter- 
m£diaire d'un jeu de portes. Les entries et sorties sont 
designees sur la Figure 2 par les m§mes symboles que sur 
la Figure 1, mais affected d'indices indiqunnt la 

20 cellule d*origine ou de destination. 

Des entries "TEST" sont pr^vues sur les regis- 
tres 10, comme sur tous les autres registres RG du roul- 
tiplieur. Ces entries sont port^es au niveau logique 0 
lorsque le multiplieur doit fonctionner en mode de 

25 calcul. Dans ce cas, la relation combinatoire entre les 
entries de donn<§es et les sorties 5 est la suivante pour 
la cellule CELl(i,j) : 

S(i + l,j-l) + A(i,j-l)*X(i) + B(i,J-l?*Y(i) ♦ 
30 C(i,j-l)*Z(i) + Rl(i,3-1) + R2(i-l,j-l) r P2(i,j)22 
+Rl(i,j)2 1 + 5(i,j)2°- 

Les notations sont celles indiqu^es sur In Fi- 
gure 2 et toutes les donne>s appliqu^es a une nNe cel- 
35 lule appartiennent a l'ensemble 0,1 . 

Le second ensemble RET 2 a pour fonction de 
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terminer la propagation des retenues et les re*sultats 
des calculs int ermediai res pour l'obtention des ebs de 
poids fort (MSB). II est constitue de vingt-deux 
cellules eiementaires CEL2 (Figure 3), groupies en une 
matrice triangulaire de 8 colonnes et 4 lignes, 
associees a quatre addi tionneurs simples ADD (Figure 4) 
et a un registre RG (Figure 5). 

Cheque cellule courante CEL2(i,j) peut avoir la 
constitution montre*e en Figure 3, ou les entries et sor- 
ties sont encore designees par les mfimes notations que 
sur les Figures precedentes, affectees d'indices indi- 
quant l'origine ou la destination. Elle se compose de 
registres dynamiques 20 months en cascade, d'un addi- 
tionneur simple 22 et d'un additionneur a retenue 24. 

De meme, cheque cellule ADD (Figure 4) peut §tre 
constitute de deux registres dynamiques 26 en cascade 
dont les sorties attaquent un sommateur 28 fournissant 
le signal de sortie, dirige* vers la premiere cellule 
CEL2 d'une ligne (pour quatre des cellules ADD), four- 
nissant le dernier element binaire de poids fort 57 du 
rgsultat (pour la derniere cellule ADD). 

Enfin, le registre RG a une constitution qu'on 
peut retrouver dans les registres du troisieme ensemble 
RG3. Du point de vue fonctionnel (Figure 5), il peut 
6tre considtre* comme constitue" d'inverseurs 30 relics 
par des interrupt eurs commandos par des horloges de 
cadencement non recouvrantes a l'etat haut ( indiquees 
par Fl et F2) et le signal de test. II peut avoir la 
constitution eiectrique montrSe en Figure 6 ou les 
entrees-sorties portent les mSmes references que sur la 
Figure 5. 

Enfin, le troisieme ensemble RG3 est destine a 
fournir les ebs de poids fort du resultab sur des 
sorties S0-S6. II est constitue d'une matrice triangu- 
laire a 7 lignes et 4 colonnes de dix-neuf registres RG 
qui peuvent Stre identiques a ceux montr£s par les 
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Figures 5 et 6. Les registres RG sont commandos par les 
m6mes horloges que les registres des cellules ddja d6- 
crites. lis permettent le f onct ionnement systolique du 
multiplieur. 

5 Le rdle des composants apparaitra mieux en con-* 

sid£rant le f onct ionnement global du multiplieur, qui 
sera maintenant 6voqu£» 

Les huit cellules d'entr<§e CELl(0,i) qui 
recoivent chacune trois ebs de poids identiques Ai f Bi, 

10 Ci des variables d'entr£e, traitent ces ebs au niveau 
haut de l'horloge Fl qui suit la presence des ebs sur le 
bus d'entrSe. 

Les trois entries de coefficient de cheque 
cellule CELl(i,j) (entries horizontales sur la Figure 1) 

15 recoivent les coefficients selon le meme format que les 
variables, c^st-a-dire le triplet Xi, Yi, Zi des ebs de 
m&me poids pour toutes les cellules d'une mftme colonne 
JU En d'autres termes, les cellules CELl(0,i) h 
CELl(7,i) recoivent les m§mes ebs Xi, Yi, Zi. 

20 A cheque niveau haut de l'horloge Fl, un nouveau 

triplet de variables numgriques A, B, C est introduit 
dans la premiere ligne de cellule CELl(0,i). Les r6sul- 
tats partiels se propagent dans le multiplieur au rythme 
du signal d'horloge. La traverse*e synchrone des treize 

25 stages successifs est assured par les registres RG com- 
mandos par la double horloge Fl et F2 ne present ant pas 
de recouvrement a 1 1 e*tat haut. 

A cheque cycle d'borloge, apres traversed de 
tous les stages, les re*sultats de l'opSration A*X + B*Y 

30 + C*Z sont presents sur les fils de sortie SO a 57 
(Figure 1). Les sorti°s P0 a P9 qui represent ent les 
poids faibles du r<§sultat sur 17 ebs ne sont pas prises 
en compte dans le cas nontre" en Figure 1. Elles 
pourraient l'etre en augmentant la taille de i'ensemble 

35 RG3. 

L'ope'ration logique est done effectuee en 13 
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cycles d'horloge pour des donntes (variables et coeffi- 
cients cod6es sur 8 ebs. II s'y ajoute le cycle d'hor- 
loge de l'gtage de sortie du circuit intdgrt. 

En mode "calcul" (traitement continu de donnges 
5 numSriques), tout se passe comme si I'opSrateur effec- 
tuait un calcul a chaque cycle d'horloge. 

II peut etre utile a ce stade de faire appa- 
raitre le f onct ionnement de chaque cellule 616mentaire 
CELl(i f j) en mode "calcul" et en mode "test". 
10 En mode calcul (Figure 2), lorsque l'entr£e 

"test" est au niveau logique z6ro, les entries de 
donnges de la cellule d'ordre (i,j) : 

5(i+l, j-1) 
Rl(i, j-D 
15 A (i, j-1) 

B (i, j-1) 
C (i, j-1) 
R2U-1, j-1) 

sont chargdes dans les registres 10 lorsque 1* entree 
20 d'horloge Fl est a 1, l'entre'e F2 6tant alors a 0* Cha- 
que registre 10 continue a mdmoriser dans sa partie es- 
clave la valeur binaire de l'entre'e quand Fl repasse a 0 
et que F2 reste a 0. Les sorties des registres 10 
prennent les valeurs des entries pr£c6demment energies 
25 quand l'horloge F2 passe a 1 et que Fl reste a 0. Les 
sorties sont alors calculges dans le rtseau combinatoire 
constitute des quatre addit ionneurs 12, 14, 16 et 18* 

Cette de* coupe f onct ionne lie du rSseau combina- 
toire est optimale du point de vue de la minimisation de 
30 la consommation en courant et de la minimisation de la 
surface de la cellule int6gr6e sur semiconducteur . La 
cellule CEL1 assure ntanmoins une rapidite* compatible 
avec la frequence de 20 MHz des horloges biphasees (Fl, 
F2) non recouvrantes a l'6tat !• 
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Comme on I'a ddja indique* plus haut, il est im- 
portant du point de vue de 1 ' industrialisat ion que le 
multiplieur puisae etre complement teste* de fecon 
simple. Ce r<§sultat eat atteint, dans 1< intention, en 
prSvoyant une entree de test qui permet, lorsqu^elle eat 
mise au niveau logique 1, de modifier le sens dea trans- 
ferta d • informs tion dans les cellules. 

Lorsque 1'entrSe TEST est a zero, tous les 
registres RG sont connected en parallele (mode de cel- 
cul). Lorsque l'entr^e TEST est a 1, tous lea registres 
RG sont connected en s6rie, ce qui permet : 

- de charger tous les registres RG avec l'entr£e 
marquee "Entree s<§rie» f apres des dgcelages commandos 
psr (Fl, F2). Le contenu des registres RG est done ob- 
servable a la sortie "Sortie sSrie" de la cellule, ce 
qui rend le test des registres RG tres simple, exhaustif 
et rapide, 

- de positionner les sorties des registres RG 
afin de presenter tous les cas possibles de configura- 
tions des entries logiques du r<§seau d 9 addi tionneurs. 
Apres chargement dans les registres des cellules sui- 
vantes, les rSsultats logiquea du rdseau d • additionneurs 
sont observables sur la sortie "Sortie s£rie", apres des 
ddcalages commandos par (Fl, F2). Le test de la cellule 
pour verifier quelle assume la fonction combinatoire 
requise est done Sgalement simple, exhaustif et rapide. 

L'invention est susceptible de nombreuses va- 
riantes et peut entendre a la realisation d'un op«5ra- 
teur a plus de trois termes et au traitement de donnges 
numgriques cod£es sur un nombre d'ebs quelcongue. 

II faut remarquer a ce sujet que 1 1 augment a t ion 
de trois a quatre du nombre de termes n'accrolt ni la 
taille, ni la complexity du schema global. On passe h 
1'operateur h quatre termes : 



A*X. + B*Y + C*Z + D*W 
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par une modification mineure de 1 1 addi tionneur 18 a deux 
entries (Figure 2) pour le transformer en un addition- 
neur a trois entries et conduire la cellule 61<§mentaire 
a remplir la relation combinatoire : 

5 S(i+j,j-l);+ A(i,j-l)»X(l) + B(i,j-l)*Y(i) + 
C(i,j-l)*Z(i) + D(i,j-l)*W(j) + Rl(i,j-1) + R2(i-l,j-l) 
= R2(i,j)2 2 + Rl(i,j)2 1 + S(i,j)2° 

Quant a 1 1 augment at ion du nombre d'ebs de co- 
10 dage, elle conduit a modifier uniquement la taille, et 
non la structure, du multiplieur. Le temps de calcul 
instantand n'est pas modifie* : seul le nombre de cycles 
d'horloge ndcessaire au calcul complet varie avec la 
taille de l'ope>ateur. 
15 L 1 implantation du multiplieur en technologie 

N.MOS sur silicium en un seul circuit intSgre* peut se 
faire sans difficult^ et on notera 1'avantage que reprd- 
sente le fait que les connexions aient lieu entre cel- 
lules mitoyennes. 
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REVENP1CATI0NS 

1. Multiplieur matriciel systolique permettant 
de r6aliser une operation num^rique du type : 

A*X + B*Y + C*Z 
caractdr ise* en ce qu 1 !! comporte un premier ensemble 
(MAT1) constitue* d'une matrice de calcul systolique a n 
x n cellules 616mentaires (ri gtant le nomtrre d'ebs de 
codage) r6alisant chacune une operation matricielle 
e*16mentaire A*X + B*Y + C*Z, alimentant un second ensem- 
ble destine* a la propagation des retenues et des r£sul- 
tats des calculs glgmentaires d'obtention des ebs de 
poids fort, le second ensemble (MAT2) alimentant a son 
tour un troisieme ensemble constitue* par une matrice 
triangulaire a ri lignes de registres de presentation des 
ebs de poids fort sur des sorties correspondantes . 

2. Multiplieur matriciel systolique suivant la 
revendication 1, caractgrise* en ce que cheque cellule 
(CEL1) du premier ensemble comporte des registres dyna- 
miques (10) connectables en se*rie ou en parallele, dont 
les sorties attaquent quatre addi tionneurs . 

3. Multiplieur matriciel systolique suivant la 
revendication 1 ou 2 f caracte*rise* en ce que le second 
ensemble (MAT2) est constitue* par une matrice triangu- 
laire a n colonnes de cellules 61£mentaires (CEL2) 
associ£es a des addi tionneurs simples (ADO) et a un re- 
gistre dynamique. . 

4. Multiplieur matriciel systolique suivant la 
revendication 3, caract6rise\ en ce que chaque cellule 
(CEL2) du second ensemble ?e compose de registres dyna- 
miques (20) months en cascade, d»un addi t ionneur a deux 
entries (22) et d'un additionneur a trois entrdes (24). 

5. Multiplieur matriciel suivant 1 1 une quelnon- 
que des revendicat ions 1 a 4, caracterise* en ce que le 
troisieme ensemble (RG3) est constitue* d'une matrice 
triangulaire a n-1 colonnes de registres oornmandes, en 
m§me temps que les autres registres du multiplieur par 
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deux horloges synchrones de cadencement non recouvrantes 
a l f 6tat haut, permettant le f onct ionnement systolique 
et formant les ebs de poids fort du rdsultat. 

6. Multiplieur matriclel suivant l'une quelcon- 
5 que des revendicat ions 2 a 5, caract^rise* en ce que tous 

les registres sont munis d'une entree de test permettant 
de modifier les transferts d 1 information dans les cel- 
lules. 

7. Multiplieur matriciel suivant l'une quelcon- 
10 que des revendications pr£c£dentes, carectSrise* en ce 

que cheque cellule e'lSmentaire (CEL1) du premier ensem- 
ble est prgvue pour rdaliser entre ses entries £ et sea 
sorties S la relation combinatoire t 
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S(i+l,j-l) + A(i,j-l)*X(i) + B(i,j-l)*Y(i) + 
C(i,j-l)*Z(i) + Rl(i,J-l) + R2(i-l f j-l) = R2(i,j)2 2 
+Rl(i,j)2 l + 5(i,j)2 °. 
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